在无法明确计算系统状态(例如操纵可变形物体)的应用程序中,视觉动作计划特别出色,因为它可以直接从原始图像中进行计划。尽管深度学习技术已经显着加速了该领域,但其成功的关键要求是大量数据的可用性。在这项工作中,我们建议在数据稀缺的情况下实现视觉行动计划,以实现视觉行动计划。我们建立在潜在的空间路线图(LSR)框架上,该框架通过在低维潜在空间中建造的图表执行计划。特别是,ACE用于i)通过自动创建新的数据点来增强可用培训数据集,ii)在潜在图中的状态表示之间创建新的未观察到的连接;方式。我们在模拟框堆叠和现实世界折叠任务上验证了所提出的方法,分别显示了刚性和可变形的对象操纵任务的适用性。
translated by 谷歌翻译
在测试时间缺失模态的多模式数据的学习表示,由于从不同渠道获得的数据的固有异质性,这是一个具有挑战性的问题。为了解决这个问题,我们提出了一种新型的几何多模式对比度(GMC)表示方法,该学习方法由两个主要组成部分组成:i)由特定于模态的基础编码器组成的两级体系结构,允许处理任意数量的模态,以使中间表示形式固定维度和共享投影头,将中间表示形式映射到潜在的表示空间; ii)一种多模式对比损失函数,鼓励学习表示的几何对齐。我们通过实验表明,GMC表示在语义上是丰富的,并实现了最先进的表现,而缺少有关三种不同学习问题的模式信息,包括预测和强化学习任务。
translated by 谷歌翻译
我们为具有高维状态空间的复杂操纵任务的视觉动作计划提供了一个框架,重点是操纵可变形物体。我们为任务计划提出了一个潜在的空间路线图(LSR),这是一个基于图的结构,在全球范围内捕获了低维潜在空间中的系统动力学。我们的框架由三个部分组成:(1)映射模块(mm),该模块以图像的形式映射观测值,以提取各个状态的结构化潜在空间,并从潜在状态产生观测值,(2)LSR,LSR的LSR构建并连接包含相似状态的群集,以找到MM提取的开始和目标状态之间的潜在计划,以及(3)与LSR相应的潜在计划与相应的操作相辅相成的动作提案模块。我们对模拟的盒子堆叠和绳索/盒子操纵任务进行了彻底的调查,以及在真实机器人上执行的折叠任务。
translated by 谷歌翻译
Deep supervised models have an unprecedented capacity to absorb large quantities of training data. Hence, training on multiple datasets becomes a method of choice towards strong generalization in usual scenes and graceful performance degradation in edge cases. Unfortunately, different datasets often have incompatible labels. For instance, the Cityscapes road class subsumes all driving surfaces, while Vistas defines separate classes for road markings, manholes etc. Furthermore, many datasets have overlapping labels. For instance, pickups are labeled as trucks in VIPER, cars in Vistas, and vans in ADE20k. We address this challenge by considering labels as unions of universal visual concepts. This allows seamless and principled learning on multi-domain dataset collections without requiring any relabeling effort. Our method achieves competitive within-dataset and cross-dataset generalization, as well as ability to learn visual concepts which are not separately labeled in any of the training datasets. Experiments reveal competitive or state-of-the-art performance on two multi-domain dataset collections and on the WildDash 2 benchmark.
translated by 谷歌翻译
Multilevel Stein variational gradient descent is a method for particle-based variational inference that leverages hierarchies of approximations of target distributions with varying costs and fidelity to computationally speed up inference. This work provides a cost complexity analysis of multilevel Stein variational gradient descent that applies under milder conditions than previous results, especially in discrete-in-time regimes and beyond the limited settings where Stein variational gradient descent achieves exponentially fast convergence. The analysis shows that the convergence rate of Stein variational gradient descent enters only as a constant factor for the cost complexity of the multilevel version, which means that the costs of the multilevel version scale independently of the convergence rate of Stein variational gradient descent on a single level. Numerical experiments with Bayesian inverse problems of inferring discretized basal sliding coefficient fields of the Arolla glacier ice demonstrate that multilevel Stein variational gradient descent achieves orders of magnitude speedups compared to its single-level version.
translated by 谷歌翻译
We apply Physics Informed Neural Networks (PINNs) to the problem of wildfire fire-front modelling. The PINN is an approach that integrates a differential equation into the optimisation loss function of a neural network to guide the neural network to learn the physics of a problem. We apply the PINN to the level-set equation, which is a Hamilton-Jacobi partial differential equation that models a fire-front with the zero-level set. This results in a PINN that simulates a fire-front as it propagates through a spatio-temporal domain. We demonstrate the agility of the PINN to learn physical properties of a fire under extreme changes in external conditions (such as wind) and show that this approach encourages continuity of the PINN's solution across time. Furthermore, we demonstrate how data assimilation and uncertainty quantification can be incorporated into the PINN in the wildfire context. This is significant contribution to wildfire modelling as the level-set method -- which is a standard solver to the level-set equation -- does not naturally provide this capability.
translated by 谷歌翻译
人工智能的最新发展提高了其在很大程度上自主和协作背景下创建艺术的能力。在这两种情况下,AI旨在模仿,结合和扩展现有的艺术风格,并可以改变创造性实践。在我们正在进行的研究中,我们从可持续性和道德角度研究了这种创意-AI。这两个主要重点领域是了解涉及创意-AI的艺术过程中的环境可持续性方面(材料,实践),以及与谁参与创建过程(权力,作者身份,所有权)有关的道德问题。本文概述了我们在这两个方向上正在进行的研究。我们将介绍我们的跨学科方法,该方法结合了访谈,讲习班,在线人种志和能源测量,以解决我们的研究问题:艺术家社区当前如何使用Creative-AI,以及艺术家想象的未来应用?当AI应用于创建艺术时,它将如何影响经济和环境?而且,如何回答这些问题指导创意ai的知识产权制度的要求?
translated by 谷歌翻译
快速,可靠地找到准确的逆运动学(IK)解决方案仍然是机器人操纵的挑战性问题。现有的数值求解器广泛适用,但依赖于本地搜索技术来管理高度非关键目标函数。最近,基于学习的方法已显示出有望作为生成快速准确的IK结果的一种手段。可以轻松地将学习的求解器与端到端系统中的其他学习算法集成在一起。但是,基于学习的方法具有致命的脚跟:每个感兴趣的机器人都需要一个专门的模型,必须从头开始训练。为了解决这一关键缺点,我们研究了一种新颖的距离几何机器人表示,并与图形结构相结合,使我们能够利用图形神经网络(GNNS)的灵活性。我们使用这种方法来训练第一个学到的生成图形逆运动学(GGIK)求解器,它至关重要的是,“机器人 - 敏捷” - 单个模型能够为各种不同的机器人提供IK解决方案。此外,GGIK的生成性质使求解器可以同时生产大量不同的解决方案,并与最小的额外计算时间同行,使其适用于诸如基于采样的运动计划之类的应用。最后,GGIK可以通过提供可靠的初始化来补充本地IK求解器。这些优势以及使用与任务相关的先验并通过新数据不断改进的能力表明,GGIK有可能成为灵活的,基于学习的机器人操作系统的关键组成部分。
translated by 谷歌翻译
可解释的人工智能(XAI)越来越多地用于分析神经网络的行为。概念激活使用人解剖概念来解释神经网络行为。这项研究旨在评估回归概念激活的可行性,以解释多模式体积数据的检测和分类。概念验证证明是在前列腺发射断层扫描/计算机断层扫描(PET/CT)成像的转移性前列腺癌患者中证明的。多模式的体积概念激活用于提供全球和局部解释。敏感性为80%,为每位患者的假阳性为1.78。全球解释表明,检测集中在CT上的解剖位置和PET上的检测信心。当地的解释显示出有望有助于区分真实积极因素和误报。因此,这项研究证明了使用回归概念激活来解释多模式体积数据的检测和分类的可行性。
translated by 谷歌翻译
多个数据集上的培训语义细分模型引起了对计算机视觉社区的最新兴趣。这种兴趣是由昂贵的注释和渴望在多个视觉领域熟练的愿望激发的。但是,已建立的数据集具有相互不相容的标签,这些标签破坏了野生中原则上的推断。我们通过迭代数据集集成自动构建通用分类法来解决这个问题。我们的方法检测数据集特异性标签之间的子集 - 苏佩特关系,并通过将超级类作为部分标签来支持子类liogits的学习。我们介绍了有关标准数据集收集的实验,并证明了相对于先前工作的竞争性概括性表现。
translated by 谷歌翻译